麦克斯韦妖悖论与熵增原理的深层探讨/
1867年,苏格兰物理学家麦克斯韦在给同行泰特的信中提出了一个令人困惑的思想实验。他设想一个微小的智能生物,能够观察和操纵单个气体分子的运动,通过选择性地开关一扇无摩擦的小门,将快速运动的分子集中到容器的一侧,慢速分子集中到另一侧,从而在不做功的情况下制造温差
1867年,苏格兰物理学家麦克斯韦在给同行泰特的信中提出了一个令人困惑的思想实验。他设想一个微小的智能生物,能够观察和操纵单个气体分子的运动,通过选择性地开关一扇无摩擦的小门,将快速运动的分子集中到容器的一侧,慢速分子集中到另一侧,从而在不做功的情况下制造温差
定义了强化学习中的熵塌缩问题,并从 4 个模型家族,11 个模型上总结了熵与性能之间的经验转换公式,证明了策略熵在强化学习中的重要性。从理论与实践的角度发现了强化学习时的策略熵变化的驱动力:动作(模型输出的 token)发生的概率及其对应获得的优势之间协方差。